缩放点积注意力 (Scaled Dot-Product Attention)

一步步观察注意力机制如何计算上下文向量

1. 输入向量 (Inputs)

Query (你的问题)

Keys (内容的标签)

Values (内容本身)

2. 计算点积分数 (Q · KT)

衡量 Query 和每个 Key 的相关性

·
=

3. 缩放 (Scale)

除以维度的平方根, 防止梯度消失

/
√dk
=

4. Softmax 归一化

将分数转换为概率分布, 实现“聚焦”

5. 加权求和得到输出 (Σ weights · V)

根据注意力权重, 从 Values 中提取信息

·
=